R es un lenguaje de programación de licencia abierta y totalmente gratuito para la computación estadística y la creación de gráficos. Recientemente ha ido incrementando su popularidad en el ámbito de la ciencia de datos, y junto con Python y Java ocupa las primeras posiciones de este sector.
Como muchos otros lenguajes de programación, se fundamenta en la escritura en línea de comandos. Aún así, está extremadamente extendido el uso de la interfaz gráfica RStudio, por su practicidad y estructura. R también destaca por tener una comunidad muy activa que desarrolla paquetes, especialmente orientados a la modelización, la estadística más clásica y la visualización de datos, que son los puntos fuertes del lenguaje. R dispone de un repositorio de paquetes extensísimo, donde podemos encontrar grupos de prácticamente todas las variantes de la ciencia de datos.
A continuación, haremos una lista de algunas de las principales particularidades de R, que deberíamos conocer como usuarios y usuarias:
R es extremadamente popular en algunos sectores, y en cambio, prácticamente desconocido en otros. Está prácticamente desaparecido en un entorno más orientado a la ingeniería o la informática, pero domina en la industria farmacéutica, las finanzas, el marketing, los audiovisuales y sobre todo la academia, ya que es donde más se usa la estadística formal, uno de los puntos más fuertes de R. Su importancia como herramienta de Business Intelligence es cada vez mayor, principalmente por la simplicidad de su código y las facilidades que ofrece a la hora de hacer visualizaciones y resúmenes estadísticos.
Los modelos en R son increíblemente fáciles de usar. Como R es un lenguaje que prioriza la usabilidad, la modelización y su código asociado son mucho más sencillos que en otros lenguajes y resultan más cercanos para personas no expertas en data science.
R funciona mucho más rápidamente si utilizamos un tipo de código orientado al uso de estructuras vectoriales y planificamos correctamente las variables que necesitaremos. A diferencia de Python, por ejemplo, algunos bucles y especialmente la concatenación de variables pueden ser muy ineficientes. Pero, como ya hemos comentado, una buena planificación y el uso de alternativas que aprovechen la estructura vectorial del lenguaje para ejecutarse rápidamente pueden ayudar a compensar el punto anterior, que es su baja velocidad.
R es más complicado de aprender al principio. Sin embargo, cuando ya hayamos entrado en su lógica y ya hayamos realizado un par de proyectos, su código nos parecerá muy intuitivo y aprenderemos nuevas funcionalidades mucho más rápidamente. Los primeros pasos programando con R son más complejos que otros lenguajes más humanos como Python, donde cada tipo de objeto tiene unas funciones asociadas. En R, estas funciones, por ejemplo, las asociadas a un tipo concreto de modelo, tendremos que conocerlas de antemano o recurrir a la ayuda que nos ofrece el programa, lo que ralentiza el proceso de escritura del código al principio. Afortunadamente, la ayuda que nos ofrece R es muy completa y llena de ejemplos, y en la gran mayoría de paquetes incluyen buenos tutoriales.
El diseño de R estuvo fuertemente influenciado por dos idiomas:
S, que es un lenguaje desarrollado por AT&T Bell Laboratories y más particularmente por Rick Becker, John Chambers y Allan Wilks. S es un lenguaje de alto nivel y es un entorno para el análisis de datos y representaciones gráficas. S se puede utilizar a través del software SPlus, que ha sido comercializado por la empresa TIBCO desde 2008 link. SPlus ha sido uno de los programas estadísticos más populares y se ha establecido como un punto de referencia en la comunidad estadística hasta que R lo ha superado durante varios años.
Scheme de Sussman es un lenguaje funcional, el principio fundamental de este lenguaje es la recursividad. La ejecución y la semántica de R se derivan de Scheme.
R está desarrollado para su uso con los sistemas operativos Unix, GNU/Linux, Windows y MacOS. R tiene un sitio web oficial en http://www.R-project.org/. Es un software gratuito que se distribuye bajo los términos de la Licencia Pública GNU (regla copyleft) y es una parte integral del proyecto GNU.
El término “software libre” se refiere a la libertad, no al precio. Para comprender el concepto, debe pensar en “libertad de expresión”, no en “entrada libre”. El término “software libre” se refiere a la libertad de los usuarios para ejecutar, copiar, distribuir, estudiar, modificar y mejorar el software.
Más específicamente, se refiere a cuatro tipos de libertad para el usuario del software:
La libertad de ejecutar el programa, para todos los usos (libertad 0).
La libertad de estudiar cómo funciona el programa y adaptarlo a sus necesidades (libertad 1). Para este acceso al código fuente es un requisito previo.
La libertad de redistribuir copias, para ayudar a tu entorno (libertad 2).
La libertad de mejorar el programa y publicar sus mejoras en beneficio de toda la comunidad (libertad 3). Para este acceso al código fuente es un requisito previo.
“Software libre” no significa “no comercial”. El software libre debe estar disponible para uso comercial. El desarrollo de software libre comercial ya no es la excepción. Las reglas sobre cómo empaquetar una versión modificada son aceptables si no interfieren con su libertad de publicarla. Las reglas que dicen “si publica el programa por este medio, también debe hacerlo” son aceptables bajo las mismas condiciones. En el proyecto GNU, “copyleft” se utiliza para proteger estas libertades. Pero también hay software libre “sin copyleft” que no está protegido por la regla. Creemos que hay buenas razones por las cuales es mejor usar “copyleft”, pero si su programa es gratuito “sin copia”, aún podemos usarlo.
R se retroalimenta de sus usuarios a través de nuevos paquetes, los cuales (los paquetes) realizan tareas que antes no se realizaban o bién se realizaban de otra manera. La calidad de los resultados es evidente, pues es un software utilizado por investigadores para hacer sus análisis y poder publicar artículos. Está constantemente evolucionando y esta es una de las ventajas respecto a softwares de pago, de los cuales tienes que esperar la próxima versión para encontrar mejoras.
En resumen, R es un lenguaje de programación orientado al análisis estadístico y a la visualización de datos. Puede ser más complicado de aprender, al principio, que otros lenguajes, pero, debido a su creciente popularidad y versatilidad, su dominio constituye una competencia de gran valor en el mercado laboral.
En este apartado vamos a ver el proceso de instalación de R, RStudio y RCommander y veremos que es muy sencillo, independientemente del sistema operativo con el que estemos trabajando.
INSTALACIÓN DE R
El primer paso que realizaremos es buscar “Install R” en Google y entraremos en la primera página que nos aparezca.
Haz clic aquí para ir a Google!
Quizás la web no es suficiente amable, ya que se trata de un proyecto libre. Tendremos que hacer clic en “Download R”, resaltado en negrita, y nos redirigirá a una página de servidores.
En principio, debería ser indiferente cuál de ellos seleccionamos, así que hacemos clic con el primero. A continuación deberemos seleccionar nuestro sistema operativo. En este caso, utilizaremos Windows para este tutorial, aunque los pasos son prácticamente idénticos para todos los sistemas operativos.
Haz clic aquí para ir al Cran.r-project.org
Clica aquí para descargar R para Windows
Una vez se ha descargado el fichero lo ejecutamos y seguimos los siguientes pasos:
INSTALACIÓN DE RStudio
El primer paso que realizaremos es buscar “download Rstudio” en Google y entraremos en la primera página que nos aparezca.
Al clicar en la primera opción Download RStudio - RStudio nos aparecerá la siguiente imagen:
Clicamos en descargar la opción Free
Una vez descargado el fichero lo ejecutamos y vamos seguimos los pasos por defecto.
Clica aquí para más información sobre descargas y instalación de R, RStudio y RCommander
Video tutorial para instalar R y RStudio